期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于不同敏感度的改进 K-匿名隐私保护算法
翟冉, 陈学斌, 张国鹏, 裴浪涛, 马征
《计算机应用》唯一官方网站    2023, 43 (5): 1497-1503.   DOI: 10.11772/j.issn.1001-9081.2022040552
摘要353)   HTML9)    PDF (1192KB)(217)    收藏

针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法——RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(pαk)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 面向本地差分隐私的K-Prototypes聚类方法
张国鹏, 陈学斌, 王豪石, 翟冉, 马征
《计算机应用》唯一官方网站    2022, 42 (12): 3813-3821.   DOI: 10.11772/j.issn.1001-9081.2021101724
摘要384)   HTML5)    PDF (2056KB)(73)    收藏

为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用户的扰动数据后以最大限度恢复原始数据集;然后,执行K-Prototypes聚类算法,在聚类过程中,使用相异性度量方法确定初始聚类中心,并利用熵权法重新定义新的距离计算公式。理论分析和实验结果表明,所提方案与基于中心化差分隐私(CDP)技术的ODPC算法相比,在Adult和Heart数据集上的平均准确率分别提高了2.95%和12.41%,有效提高了聚类的可用性。同时,LDPK-Prototypes扩大了数据之间的差异性,有效避免了局部最优,提高了聚类算法的稳定性

图表 | 参考文献 | 相关文章 | 多维度评价